连续归一化流(CNF)是一类生成模型,可以通过求解普通的微分方程(ODE)将先验分布转换为模型分布。我们建议通过最大程度地减少概率路径差异(PPD)来训练CNF,这是CNF产生的概率密度路径与目标概率密度路径之间的新型差异家族。 PPD是使用对数质量保护公式制定的,该公式是线性的一阶部分微分方程,将对数目标概率和CNF的定义向量场进行配方。 PPD比现有方法具有多个关键好处:它避免了在迭代中解决颂歌的需求,很容易应用于歧管数据,比例到高维度,并与大型目标路径兼容,该目标路径在有限的时间内插值纯噪声和数据。从理论上讲,PPD显示为结合经典概率差异。从经验上讲,我们表明,通过最小化PPD实现最新的CNF在现有的低维歧管基准上获得了最新的可能性和样品质量,并且是生成模型以扩展到中度高维歧管的第一个示例。
translated by 谷歌翻译
神经过程(NP)是一种流行的元学习方法。与高斯工艺(GPS)类似,NPS将分布定义在功能上,并可以估计其预测中的不确定性。但是,与GPS不同,NP及其变体遭受不足的折磨,并且通常具有棘手的可能性,这限制了其在顺序决策中的应用。我们提出了变形金刚神经过程(TNP),这是NP家族的新成员,将不确定性感知的元学习作为序列建模问题。我们通过基于自回旋的可能性目标学习TNP,并通过新颖的基于变压器的建筑实例化。该模型架构尊重问题结构固有的归纳偏差,例如对观察到的数据点的不变性以及与未观察到的点的等效性。我们进一步研究了TNP框架内的旋钮,以额外的计算来折衷解码分布的表达。从经验上讲,我们表明TNP在各种基准问题上实现最新性能,在元回归,图像完成,上下文多武器匪徒和贝叶斯优化方面表现优于所有先前的NP变体。
translated by 谷歌翻译
科学和工程中的许多问题涉及在高维空间上优化昂贵的黑盒功能。对于此类黑盒优化(BBO)问题,我们通常会为在线功能评估进行少量预算,但通常也可以访问固定的离线数据集进行预读。先前的方法试图利用离线数据来近似函数或逆向,但与数据分布相距不足。我们提出了Black-Box优化变压器(Boomer),这是一种使用离线数据集预处理黑框优化器的生成框架。在Boomer中,我们训练自回归模型,以模仿隐式黑框功能优化器的轨迹运行。由于默认情况下这些轨迹不可用,因此我们通过从离线数据中对随机点进行排序来开发一个简单的随机启发式,以合成轨迹。从理论上讲,我们表明这种启发式诱导的轨迹,这些轨迹模仿了从不同的低保真度(探索)到高保真(剥削)样本的过渡。此外,我们引入了机制,以控制从勘探到剥削的轨迹过渡的速率,并在测试时间内将其推广到离线数据之外。从经验上讲,我们使用随便的蒙面变压器实例化繁荣,并在设计基础上进行评估,在设计基础上,我们平均排名最优于最优于最先进的基线。
translated by 谷歌翻译
最近的工作表明,离线增强学习(RL)可以作为序列建模问题(Chen等,2021; Janner等,2021)配制,并通过类似于大规模语言建模的方法解决。但是,RL的任何实际实例化也涉及一个在线组件,在线组件中,通过与环境的任务规定相互作用对被动离线数据集进行了预测的策略。我们建议在线决策变压器(ODT),这是一种基于序列建模的RL算法,该算法将离线预处理与统一框架中的在线填充融为一体。我们的框架将序列级熵正规仪与自回归建模目标结合使用,用于样品效率探索和填充。从经验上讲,我们表明ODT在D4RL基准上的绝对性能中与最先进的表现具有竞争力,但在填充过程中显示出更大的收益。
translated by 谷歌翻译
虽然神经网络在平均病例的性能方面对分类任务的成功显着,但它们通常无法在某些数据组上表现良好。这样的组信息可能是昂贵的;因此,即使在培训数据不可用的组标签不可用,较稳健性和公平的最新作品也提出了改善最差组性能的方法。然而,这些方法通常在培训时间使用集团信息的表现不佳。在这项工作中,我们假设没有组标签的较大数据集一起访问少量组标签。我们提出了一个简单的两步框架,利用这个部分组信息来提高最差组性能:训练模型以预测训练数据的丢失组标签,然后在强大的优化目标中使用这些预测的组标签。从理论上讲,我们在最差的组性能方面为我们的方法提供泛化界限,展示了泛化误差如何相对于培训点总数和具有组标签的培训点的数量。凭经验,我们的方法优于不使用群组信息的基线表达,即使只有1-33%的积分都有组标签。我们提供消融研究,以支持我们框架的稳健性和可扩展性。
translated by 谷歌翻译
结构方程模型(SEM)是一种有效的框架,其原因是通过定向非循环图(DAG)表示的因果关系。最近的进步使得能够从观察数据中实现了DAG的最大似然点估计。然而,在实际场景中,可以不能准确地捕获在推断下面的底层图中的不确定性,其中真正的DAG是不可识别的并且/或观察到的数据集是有限的。我们提出了贝叶斯因果发现网(BCD网),一个变分推理框架,用于估算表征线性高斯SEM的DAG的分布。由于图形的离散和组合性质,开发一个完整的贝叶斯后面是挑战。我们通过表达变分别家庭分析可扩展VI的可扩展VI的关键设计选择,例如1)表达性变分别家庭,2)连续弛豫,使低方差随机优化和3)在潜在变量上具有合适的前置。我们提供了一系列关于实际和合成数据的实验,显示BCD网在低数据制度中的标准因果发现度量上的最大似然方法,例如结构汉明距离。
translated by 谷歌翻译
我们对通过歧管(例如球形,Tori和其他隐式表面)描述的复杂几何形状的学习生成模型感兴趣。现有(欧几里德)生成模型的当前延伸仅限于特定几何形状,并且通常遭受高计算成本。我们介绍了Moser Flow(MF),是连续标准化流量(CNF)系列内的一类新的生成型号。 MF还通过解决方案产生CNF,然而,与其他CNF方法不同,其模型(学习)密度被参数化,因为源(先前)密度减去神经网络(NN)的发散。分歧是局部线性差分操作员,易于近似和计算歧管。因此,与其他CNFS不同,MF不需要在训练期间通过颂歌求解器调用或反向。此外,将模型密度明确表示为NN的发散而不是作为颂歌的解决方案有助于学习高保真密度。从理论上讲,我们证明了MF在合适的假设下构成了通用密度近似器。经验上,我们首次证明了流动模型的使用从一般曲面采样,并在挑战地球和气候的挑战性几何形状和现实世界基准中实现了密度估计,样本质量和培训复杂性的显着改善科学。
translated by 谷歌翻译
对排名进行机器学习方法的关键挑战是利益性能度量与可通过基于梯度的方法进行优化的替代损失功能之间的差距。出现这种间隙,因为排名指标通常涉及不分辨率的分类操作w.r.t.模型参数。先前的作品已经提出了与排名指标或简单平滑版本松散相关的代理,并且通常无法扩展到现实世界的应用程序。我们提出了一类新的替代替代品的Pirank,用于排名,基于NeuralOrtor [1]采用连续的温度控制的排放,对分拣操作员进行分拣操作员。我们表明,Pirank恰好恢复了零温度限制的所需度量,进一步提出了分割和征服的延伸,在理论和实践中,对大型名单尺寸有利地缩放。经验上,我们展示了培训期间更大名单大小的作用,并表明Pirank显着提高了公开可用的互联网规模学习的基准的可比方法。
translated by 谷歌翻译
Prediction tasks over nodes and edges in networks require careful effort in engineering features used by learning algorithms. Recent research in the broader field of representation learning has led to significant progress in automating prediction by learning the features themselves. However, present feature learning approaches are not expressive enough to capture the diversity of connectivity patterns observed in networks.Here we propose node2vec, an algorithmic framework for learning continuous feature representations for nodes in networks. In node2vec, we learn a mapping of nodes to a low-dimensional space of features that maximizes the likelihood of preserving network neighborhoods of nodes. We define a flexible notion of a node's network neighborhood and design a biased random walk procedure, which efficiently explores diverse neighborhoods. Our algorithm generalizes prior work which is based on rigid notions of network neighborhoods, and we argue that the added flexibility in exploring neighborhoods is the key to learning richer representations.We demonstrate the efficacy of node2vec over existing state-ofthe-art techniques on multi-label classification and link prediction in several real-world networks from diverse domains. Taken together, our work represents a new way for efficiently learning stateof-the-art task-independent representations in complex networks.
translated by 谷歌翻译
As language models have grown in parameters and layers, it has become much harder to train and infer with them on single GPUs. This is severely restricting the availability of large language models such as GPT-3, BERT-Large, and many others. A common technique to solve this problem is pruning the network architecture by removing transformer heads, fully-connected weights, and other modules. The main challenge is to discern the important parameters from the less important ones. Our goal is to find strong metrics for identifying such parameters. We thus propose two strategies: Cam-Cut based on the GradCAM interpretations, and Smooth-Cut based on the SmoothGrad, for calculating the importance scores. Through this work, we show that our scoring functions are able to assign more relevant task-based scores to the network parameters, and thus both our pruning approaches significantly outperform the standard weight and gradient-based strategies, especially at higher compression ratios in BERT-based models. We also analyze our pruning masks and find them to be significantly different from the ones obtained using standard metrics.
translated by 谷歌翻译